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摘要 : [目的 /意义 ] 概率 主题 模型 算法 在 不 断 得 到 改进 与 扩展 ,本 文 对 国内 外 已 有 的 利用 引文 构建 的 主题 

模型 进行 研究 ,分析 和 对 比 不 同 模型 的 生成 过 程 与 算法 ,并 探讨 利用 引文 构建 的 主题 模型 在 科技 文本 分 析 中 的 
应 用 与 可 扩展 的 研究 方向 。[ 方 法/ 过程] 通过 Web of Science 数据 库 和 CNKI 数据 库 获 取 国 内 外 利用 引文 构建 
主题 模型 的 相关 文献 ,经 人 工 判 读 后 筛 选 出 具有 代表 性 的 文献 ,对 这 些 文献 中 利用 引文 构建 的 主题 模型 ,从 建 
模 思 想 、 生 成 过 程 、 参 数 估 计 与 推断 算法 等 方面 进行 对 比 与 分 析 。[ 结果 /结论 ] 目前 国内 外 利用 引文 构建 的 主 
题 模型 主要 包括 研究 主题 与 引文 分 布 的 主题 模型 研究 被 引 与 施 引 主题 间 关 系 的 主题 模型 ,以 及 基于 引用 内 容 
kal 用 主题 模型 ;主题 模型 中 引入 引文 信息 后 ,能 够 获得 更 完整 的 主题 内 容 和 特定 主题 下 的 重要 文献 ,并 可 识 
日 施 引文 献 和 被 引文 献 之 间 主 题 间 的 关系 及 影响 ;已 有 的 模型 多 集中 在 概率 潜在 语义 分 析 (Probabilistic Latent 

antic Analysis ,PLSA ) 和 潜在 犹 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 主题 模型 基础 上 进行 扩展 。 未 
宁可 扩展 研究 引入 引用 内 容 的 主题 模型 .模型 的 性 能 优化 和 评价 方法 、 模 型 的 应 用 研究 等 。 
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,2 信息 化 时 代 , 以 文本 资源 为 典型 的 各 种 信息 呈 爆 
HEGRE A ,信息 的 不 断 积累 导致 文本 的 数据 量 日 益 庞 
大 三 其 中 ,科技 文献 的 数量 呈 指 数 倍增 长 ,科技 文献 作 
为 知识 的 主要 载体 ,是 知识 发 展 过 程 的 累积 形态 ,蕴含 
着 大 量 揭 示 学 科 发 展演 化 的 主题 信息 。 从 主题 复杂 多 
样 且 数据 庞大 的 文本 信息 中 挖掘 出 其 蕴含 的 主题 及 主 
题 演化 信息 ,可 以 帮助 科研 人 员 以 及 决策 人 员 识 别 学 
科 领 域 研究 的 主题 内 容 \ 快 速 了 解 与 把 握 科技 发 展 的 。 的 新 方法 ,已 成 为 非常 活跃 的 研究 领域 。 随 着 自然 语 
脉络 、 跟 踪 科 技 领域 主题 的 演化 状态 和 知识 流动 的 轨 言 处 理 技术 的 发 展 ,概率 主题 模型 被 广泛 地 应 用 于 主 
迹 。 题 识别 和 主题 演化 等 领域 中 。 

近年 来 在 文本 挖掘 领域 ,概率 主题 模型 "是 机 器 概率 主题 模型 有 很 多 算法 ,经 典 的 两 种 算法 为 概 


的 表示 ,而 每 一 个 主题 义 能 够 表示 成 为 一 个 在 词 袋 空 
间 上 的 概率 分 布 。 与 空间 向 量 和 语言 模型 不 同 的 是 ， 
概率 主题 模型 引入 主题 概念 后 ,不 仅 能 够 实现 文档 的 
降 维 表 示 ,同时 能 够 抽取 出 文档 集合 上 的 隐 含 语义 ,为 
大 规模 数据 集中 的 文档 寻找 一 个 相对 短 的 描述 。 
过 对 文本 中 深层 的 、 隐 舍 的 语义 信息 进行 挖掘 ,能 够 更 
好 地 从 科研 文献 中 抽取 出 更 有 价值 的 潜在 主题 分 布 ， 
这 种 新 的 潜在 的 语义 空间 在 文档 和 词 之 间 填 补 了 空 
日 ,提供 了 一 种 帮助 科研 人 员 在 大 量 文本 中 识别 主题 


E 


学 习 和 自然 语言 处 理 领域 中 用 于 在 一 系列 文档 中 发 现 
隐 含 主题 的 一 种 统计 模型 ,可 实现 文本 语义 挖掘 。 作 
为 一 套 新 的 能 对 文献 进行 语义 抽取 的 算法 ,概率 主题 
模型 引入 主题 空间 的 概念 ,实现 了 文档 在 主题 空间 上 


率 潜在 语义 分 析 (Probabilistic Latent Semantic Analysis, 
PLSA ) 和 潜在 狄 利克 雷 分 配 (Latent Dirichlet Alloca- 
tion, LDA) 主题 模型 。LDA 由 于 具有 良好 的 数学 基 
础 和 灵活 的 扩展 性 ,得 到 了 广泛 地 应 用 与 扩展 。 但 随 
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着 研究 的 深入 ,学 者 们 也 指出 了 LDA 模型 存在 的 问 
题 ,比如 LDA 模型 建立 时 假设 文档 之 间 可 交换 即 认为 
文档 之 间 没有 先后 顺序 ,主题 之 间 可 交换 即 认为 主题 
之 间 没 有 层次 关系 和 先后 关系 ” 。 然 而 ,大 部 分 语 料 
库 特 别 是 科技 文献 之 间 以 很 多 方式 相互 关联 而 不 是 独 
立 的 ,文档 中 主题 的 产生 往往 有 先后 顺序 和 层次 关系 ， 
显然 这 些 假设 没有 对 主题 的 关联 关系 进行 建 模 ,在 分 
析 语 料 库 时 应 考虑 这 样 的 信息 。 

随后 研究 人 员 对 模型 算法 进行 了 改进 与 扩展 , 包 
括 对 主题 演化 过 程 引 入 时 间 因 素 进 行 建 模 ” ,引入 作 
者 元 数据 构建 作者 主题 模型 "等 。 一 篇 研究 论文 除了 
是 一 个 词 袋 ,还 包含 了 更 多 的 结构 信息 ,其 中 引文 作为 
在 科学 文献 中 重要 的 继承 元 素 ,所 包含 的 噪声 信息 会 
更 少 , 且 能 说 明 一 个 文档 对 另 一 个 文档 的 影响 以 及 主 
题 司 的 联系 ,因此 ,国内 外 学 者 将 引文 关联 关系 引入 到 
主题 模型 中 ,对 模型 算法 进行 了 改进 与 扩展 。 本 文 针 
对 出 内 外 已 有 的 利用 引文 构建 的 主题 模型 进行 深入 的 
APA EC, ,详细 阐述 这 类 模型 的 生成 过 程 与 算法 , 同 
时 指出 存在 的 问题 ,并 探讨 利用 引文 构建 的 主题 模型 
奉 策 技 文 本 分 析 中 的 应 用 与 今后 可 扩展 的 研究 方向 。 


2 ”数据 来 源 及 研究 方法 


个 了 全 面 分 析 目 前 引入 引文 的 主题 模型 的 最 新 研 
FEE ,本 文选 取 Web of Science 数据 库 核 心 合集 数据 


分 析 。 本 文 将 分 别 从 模型 的 建 模 思 想 .生成 过 程 、 模 型 
参数 估计 与 推断 的 算法 、 优 势 与 不 足 等 角度 对 已 有 的 
利用 引文 构建 的 主题 模型 进行 详细 对 比 与 分 析 , 并 提 
出 未 来 的 可 能 发 展 趋势 。 


3 利用 引文 构建 的 主题 模型 进展 分 析 


本 文 针对 上 述 26 篇 代表 性 文献 的 研究 内 容 , 对 其 
提出 的 基于 引文 构建 的 主题 模型 按 人 研究 角度 划分 为 3 
个 方向 ,包括 研究 主题 与 引文 分 布 的 主题 模型 研究 被 
引 与 施 引 主题 间 关系 的 主题 模型 ,以 及 基于 引用 内 容 
的 引用 主题 模型 ,本 文 将 进一步 对 这 些 利 用 引文 构建 
的 主题 模型 进行 详细 的 分 析 和 对 比 。 

3.1 基于 主题 与 引文 分 布 的 主题 模型 

该 类 主题 模型 引入 了 引文 ,研究 了 引文 的 主题 分 
布 ,抽取 引文 文档 与 主题 的 分 布 ,或 将 引文 作为 单词 一 
样 引 入 ,从 而 获得 主题 与 引文 的 分 布 。 该 类 模型 主要 
包括 PHITS PLSA -PHITS、Mixed -membership model , cc - 
LDA ‚cp -LDA , CitationLDA + + , Citation Author Topic 
Model( CAT) „Citation Topic Model ( CT ) , Citation -Con- 
tent-LDA „Citation Network Topic Model ( CNTM ) 等 。 

早期 将 引文 与 文本 内 容 联合 建 模 是 对 PLSA 模型 
进行 扩展 ,D. Cohn 等 ”在 PLSA 模型 的 基础 上 借鉴 超 
链接 引导 的 主题 搜索 算法 ( Hyperlink -Induced Topic 
Search ,HITS ) 扩展 得 到 了 PHITS 模型 。 该 模型 假设 引 


房 御 国 知 网 数据 库 (CNKI) 作为 数据 来 源 分 别 进行 英 


用 的 生成 过 程 类 似 于 PLSA ,不 同 之 处 在 于 PLSA 对 文 


文 % 中 文 文献 检索 。 数 据 的 获取 过 程 为 :以 主题 为 
( (“topic model * ” and (citation or citations or cited or 
citing or reference * )) or (( “bayesian model * ”or 
S probabilistiė model * ” ) near (citation or citations or ci- 
ted or citing or reference * )) or ( (model * near topic 
* ) near (citation or citations or cited or citing) ) ) 进行 
英文 文献 检索 ,文献 类 型 限定 为 论文 (article) BNE 
X (proceeding paper) .评论 (review ) 和 社论 材料 (edito- 
rial material ) ,检索 时 间 截 至 2019 年 1 月 28 日 ,检索 到 
英文 文献 381 篇 ,其 中 论文 229 篇 ,会 议论 文 149 篇 ， 
从 发 文 的 主要 国家 看 ,美国 学 者 发 表 129 篇 ,中 国学 者 
发 表 93 篇 ;@ 以 主题 为 (模型 *( 引 用 + 引文 ) *( 主 
题 + 概率 + 贝 叶 斯 ) ) 进行 中 文 文献 检索 ,中 文 文献 类 
型 限定 为 期 刊 论文 、 会 议论 文 , 学 位 论文 ,检索 时 间 截 
至 2019 年 1 月 28 日 ,检索 到 中 文 文献 155 fel | OXF 
个 数据 集中 的 文献 分 别 进行 人 工 逐 一 判读 ,筛选 去 掉 
内 容 相关 度 较 小 的 文献 ,最 终 选取 将 引文 引入 主题 模 
型 中 对 模型 进行 改进 的 具有 代表 性 的 26 篇 文献 进行 
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献 中 的 词汇 进行 建 模 ,而 PHITS 对 文献 的 引文 进行 建 
模 ,在 文献 与 引文 之 间 引 入 主题 空间 ,认为 施 引 文献 是 
被 引文 献 具 有 文档 中 特定 主题 参数 的 多 项 式 分 布 , 运 
H EM 算法 对 模型 参数 进行 极 大 似 然 估计 。 该 模型 证 
实 了 引入 引文 后 能 够 改进 对 文档 的 分 类 ,可 揭示 一 篇 
引文 在 特定 主题 条 件 下 被 引 的 可 能 性 ,也 可 计算 出 一 
篇 引文 的 主题 概率 分 布 来 识别 主题 特异 性 的 引文 ,但 
是 该 模型 未 能 抽取 主题 与 词 的 分 布 。 

随后 ,D. Cohn #1 T. Hofmann” 提出 了 PLSA-PHITS 
联合 主题 模型 ,利用 PLSA 与 PHITS 基于 同一 因子 分 
解 , 并 共享 同一 个 文档 - 主题 的 混合 分 布 ,由 此 引入 了 
共同 的 潜在 主题 空间 ,能 够 同时 抽取 主题 与 词 的 分 布 、 
主题 与 引文 的 分 布 。 该 模型 利用 EM 方法 进行 参数 推 
断 ,产生 的 主题 更 加 稳定 , 相 比 PLSA 或 PHITS, 分 类 效 
果 更 好 。 

之 后 国内 外 学 者 利用 文本 和 引文 数据 在 LDA 基 
础 上 进行 了 扩展 建 模 , 如 E. Erosheva 等 中 提出 了 
Mixed-membership model ,后 期 也 有 学 者 将 该 模型 称 为 
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三 | 


Link-LDA 模型 。 该 模型 认为 一 篇 文献 是 一 个 词 袋 的 
同时 也 是 一 个 引文 袋 ,引文 与 单词 的 生成 相同 ,并 共用 
同一 个 文档 与 主题 分 布 ,利用 LDA 过 程 分 别 产生 主题 
与 词 的 分 布 .主题 与 引文 的 分 布 。E. Erosheva 等 利用 
该 模型 识别 了 PNAS 生命 科学 领域 12 036 篇 文献 中 的 
主题 ,与 该 数据 集 自身 的 学 科 分 类 相 比 ,能够 更 细致 地 
对 这 些 文献 进行 分 类 。 此 外 ,有 学 者 从 施 引文 献 的 角 
度 计算 引用 主题 分 布 ,如 T，Nguyen 等 中 建立 了 Cita- 
tionLDA + + 模型 ,利用 LDA 获取 主题 与 词 分 布 ,并 作 
为 先 验 知识 用 于 模型 的 推断 过 程 ,在 引用 的 主题 分 布 
计算 中 ,从 引文 网 络 中 获得 施 引 文献 集 , 对 于 每 一 篇 文 
献 ,从 先 验 知识 中 获得 top -k 主题 ,采用 Hellinger 距离 
计算 施 引 文献 主题 与 top 卡 主题 间 的 相似 度 ,来 获得 引 
用 主题 的 分 布 。 
一 随后 ,有 学 者 在 Link -LDA 的 基础 上 进行 了 扩展 ， 
Wy, Li "HET cc-LDA 与 cp-LDA 模型 ，cc-LDA 
BALS Link -LDA 相近 ,但 对 于 每 一 篇 引文 的 处 理 过 程 
而, 除 抽取 主题 与 引文 的 分 布 外 ,增加 了 抽取 引文 与 
词 的 分 布 ;ep-LDA 模型 引入 了 引文 出 现 的 位 置 ,将 一 
篇 3 章 分 成 两 部 分 ， Bj“ Introduction and Related Work” 
APS Others” ,由 beta 分 布 生成 引文 的 位 置 。 除 此 之 外 ， 
本 学 者 尝试 将 引文 与 文献 的 其 他 元 数据 如 作者 进行 
KAE JUA Y. Tu 等 "提出 的 引文 作者 主题 
模型 CAT, 对 单词 、 作 者、 引文 因素 联合 建 模 ;Z. Lu 
等 PS 提出 Collective Topic Model ,在 PLSA 的 基础 上 引 
入 作者 论文 发 表 地 点 .引文 关系 ,利用 共 被 引 关 系 评 
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价 基于 主题 的 论文 影响 力 。 

另外 ,还 有 一 些 学 者 抽取 引文 的 主题 分 布 , 如 Z. 
Guo 等 “构建 了 CT 模型 , 先 抽取 文档 与 引文 的 分 布 ， 
然后 抽取 引文 与 主题 的 分 布 ,并 且 通 过 有 向 图 的 随机 
游 走 来 捕捉 间接 引用 关系 。 对 该 模型 的 性 能 评价 采用 
了 Cora 数据 库 中 的 9 998 篇 文献 ,与 其 他 模型 进行 主 
题 聚 类 效果 的 对 比 ,CT 模型 要 优 于 PLSI, PHITS LDA , 
PLSA-PHITS, X. Huang 等 ' 设计 了 主题 敏感 的 有 影 
响 力 的 论文 识别 模型 ( Model for Topic -sensitive Influen- 
tial Paper Discovery , MTID ) , 抽取 施 引 文献 的 主题 分 
布 ,并 对 论文 在 不 同 主题 下 的 重要 性 进行 建 模 。 也 有 
学 者 从 分 层 的 角度 出 发 ,如 H. Zhou 等 “提出 的 Cita- 
tion -Content-LDA 模型 ,分 为 两 层 : 第 一 层 利用 引文 生 
成 父 主 题 ,抽取 的 父 主题 代表 了 引文 的 聚 类 ;第 二 层 从 
第 一 层 产生 的 每 个 父 主题 中 抽取 生成 子 主题 。 由 于 引 
日 关系 的 数量 比 词 的 数量 少 ,该 模型 可 减 小 计算 复杂 
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上 述 模型 为 参数 化 的 模型 ,也 有 人 研究 人 员 构 建 了 
非 参 数 模 型 ,如 K. W. Lim 和 W. Buntine! 构建 了 引 
文 网 络 主题 模型 CNTM ,引入 作者 .引文 和 文本 内 容 ， 
在 泊 松 混合 主题 链接 模型 (Poisson Mixed -topic Link 
Model, PMTLM ) 5 和 作者 主题 模型 ( Author - Topic, 
AT) ”模型 的 基础 上 扩展 出 非 参数 模型 。H. Bai 等 
提出 了 神经 相关 主题 模型 (Neural Relational Topic 
Model, NRTM) ,可 同时 利用 主题 和 引文 网 络 之 间 的 洪 
在 相关 性 。 如 表 1 ras: 


R1 基于 主题 与 引文 分 布 的 主题 模型 


) 作者 模型 基础 模型 参数 估计 与 推断 算法 
2000 D. Cohn 等 PHITS PLSA EM 算法 
2001 D. Cohn 等 PLSA + PHITS PLSA .PHITS EM 算法 
2004 E. Erosheva 等 Mixed-membership model LDA 变 分 推理 
2009 Z. Guo 等 CT PLSA EM 算法 
2010 Y.Tu 等 CAT LDA Gibbs 采样 
2014 K. W. Lim 等 CNTM AT PMTLM MH 算法 
2017 H. Zhou 等 Citation -Content -LDA LDA Gibbs 采样 
2017 Y. Li 等 cc-LDA .cp-LDA LDA Gibbs 采样 
2018 T. Nguyen 等 CitationLDA + + LDA Gibbs 采样 


3.2 ”基于 被 引 与 施 引 主题 间 关 系 的 主题 模型 

该 类 主题 模型 侧重 于 研究 施 引文 献 的 主题 与 被 引 
文献 的 主题 之 间 的 关系 ,通过 选择 是 否 从 被 引文 献 的 
主题 分 布 中 抽取 主题 ,或 者 通过 共用 同一 个 主题 - 引 
文 分 布 等 多 个 角度 揭示 了 被 引文 献 的 主题 分 布 对 施 引 
文献 主题 分 布 的 影响 。 该 类 模型 包括 Copycat , Citation 


Influence Model( CIM ) „Pairwise Link -LDA , Link -PLSA - 
LDA , Inheritance Topic Model ( ITM ) , Relational Topic 
Model( RTM) „cite -LDA , cite -PLSA -LDA | TERESA , Ber- 
noulli Process Topic Model ( BPT ) , Bi - Citation - LDA , 
RefTM „Latent Topical Authority Indexing( LTAI) 等 。 

L. Dietz 等 提出 了 Copycat 与 CIM 模型 ,Copycat 
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模型 中 , 施 引文 献 中 的 每 个 主题 从 引文 的 主题 混合 
抽取 , 施 引文 献 中 的 每 一 个 词 均 与 其 引文 进行 关联 ,由 
此 被 引文 献 的 主题 分 布 影响 着 施 引文 献 的 主题 ,模型 
解释 了 被 引 和 施 引 之 间 ` 共 被 引 耦合 文 献 之 间 的 依赖 
性 。 但 由 于 该 模型 强制 施 引 文献 中 的 每 个 单词 与 一 篇 
被 引文 献 关联 ,两 者 在 实际 中 并 不 能 进行 完全 匹配 ,在 
被 引文 献 的 主题 中 会 引入 新 的 词 ,并 且 该 模型 不 能 揭 
示 创 新 主题 或 正在 发 展 中 的 主题 。 而 CIM 模型 克服 
了 这 种 限制 , 施 引 文献 可 选择 是 从 引文 的 主题 分 布 中 
抽取 主题 ,或 从 其 自身 的 主题 分 布 中 抽取 ,通过 伯 努 利 
分 布 来 进行 选择 ,在 实证 研究 中 ,CIM 模型 的 预测 性 能 
要 优 于 Copycat 模型 。 但 该 模型 只 能 进行 简单 的 双向 
图 ,未 能 处 理 复杂 的 引文 网 络 。 

yM. Kim 等 "在 CIM 模型 基础 上 引入 被 引文 献 的 
PageRank 值 , 来 计算 引用 强度 ,通过 该 引用 强度 值 来 设 
冠 阅 值 ,建立 加 权 的 引文 网 络 进行 主题 扩散 分 析 。 随 
JY. Guo 等 “提出 的 伯 努 利 主题 模型 BPT, 认 为 同一 
篇 姻 献 扮演 两 个 不 同 的 角色 , 即 文献 本 身 和 被 引文 献 ， 
俐 海 被 引文 献 时 ,主题 的 抽取 与 LDA 相同 ,而 对 于 文 
献 剧 身 的 研究 主题 ,其 分 布 是 引文 的 主题 混合 分 布 , 引 
网 络 的 多 层次 结构 通过 随机 的 伯 努 利 过 程 捕 获 。 
BED 在 困惑 度 上 要 优 于 LDA, Link -LDA , Copycat 和 
CI T. Masada 等 ”提出 的 TERESA 模型 与 BPT 模 
型 次 似 。 

>< 也 有 学 者 将 施 引 文献 和 被 引文 献 构 成 一 个 文献 对 
在 省 题 模型 中 联合 建 模 ,典型 的 模型 有 R. M. Nallapati 
ape 提出 的 Pairwise -Link-LDA 与 Link -PLSA -LDA 模 
1) Rairwise-Link LDA 模型 结合 了 LDA 和 混合 隶属 度 
随机 块 模型 ( Mixed Membership Stochastic Block Mod- 
els, MMSB) 的 优势 ,可 以 对 任意 链接 结构 进行 建 模 。 
MMSB 最 初 用 于 蛋白 质 与 蛋白 质 相互 作用 的 建 模 ,对 
于 每 一 对 蛋白 质 , 分 别 抽取 和 蛋白 质 的 主题 ,两 个 蛋白 质 
之 间 相 互 作 用 的 有 无 由 伯 努 利 分 布 来 生成 。R. M. 
Nallapati 等 将 这 种 模型 扩展 至 文本 中 ,将 文献 看 作 蛋 
白质 ,对 每 一 对 文献 的 主题 通过 伯 努 利 过 程 选 择 每 对 
主题 之 间 是 否 存在 引用 关系 。MMSB 中 ,蛋白 质 相互 
作用 是 对 称 的 ,由 于 引用 具有 方向 性 , R. M. Nallapati 
等 采用 文献 的 时 间 惟 来 为 每 一 对 文献 分 配方 向 性 ,在 
该 模型 中 ,单词 的 生成 过 程 和 LDA 主题 模型 一 致 , 施 
引文 献 与 被 引文 献 共 用 同一 个 主题 分 布 。 该 模型 虽 能 
够 清楚 地 揭示 出 施 引文 献 和 被 引文 献 的 主题 关系 ,但 
由 于 它 需 要 对 每 一 对 文献 主题 之 间 的 引用 关系 进行 计 
算 , 因 此 在 当 文 档 量 较 大 时 ,计算 成 本 较 高 ,其 扩展 性 
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受到 限制 。 针 对 该 问题 , R. M. Nallapati 提出 了 Link - 
PLSA-LDA 模型 ,结合 了 PLSA 和 LDA 的 优势 。 对 于 所 
有 的 被 引文 献 ,采用 PLSA 获取 主题 与 引文 的 分 布 ,对 
于 每 篇 施 引 文献 ,利用 Link -LDA 获取 主题 与 词 的 分 
布 ,基于 PLSA 的 主题 与 引文 分 布 抽取 施 引 文献 的 主 
题 与 引文 分 布 ,不 需要 计算 每 一 对 文档 ,该 模型 保留 了 
Link-LDA 的 可 扩展 性 优势 ,在 最 大 似 然 性 和 链接 预测 
方面 要 优 于 Pairwise -Link -LDA 模型 ,但 Pairwise -Link - 
LDA 模型 在 语义 层面 的 揭示 要 优 于 Link-PLSA-LDA 模 
型 。 


另外 ,还 有 学 者 提出 Pairwise -Link -LDA 模型 中 主 
题 与 词 .主题 与 引用 是 分 开 产 生 的 ,不 能 保证 识别 的 主 
题 能 同时 能 表征 词 与 引用 关系 。 针 对 该 问题 ,J. Chang 
FU D. M. BleiW” 进行 了 改进 提出 了 相关 主题 模型 ( Re- 
lational Topic Model, RTM) , 施 引 文献 与 被 引文 献 各 自 
的 生成 过 程 与 LDA 相同 ,识别 的 施 引 文献 与 被 引文 献 
的 主题 之 间 通 过 伯 努 利 过 程 选 择 是 否 存在 关联 关系 。 
利用 该 模型 对 Cora 2 708 篇 数据 进行 主题 识别 , 相 比 
LDA ,RTM 对 于 施 引 和 被 引 关系 的 识别 精准 性 提高 了 
80% 。 随 后 ,L. S. L. Tan 等 提出 LMV 模型 (LDA 
MMSB Visibility) ,与 Pairwise-Link-LDA 相近 ,但 对 于 每 
一 篇 引文 ,引入 beta 分 布 来 产生 与 施 引 文献 之 间 的 关 
联 关系 ,其 预测 性 能 优 于 Pairwise -Link -LDA 和 RTM 模 
型 。Q. He 等 ”提出 ITM 模型 ,对 处 于 t 时 间 的 施 引 文 
献 及 其 引文 进行 建 模 , 来 描绘 主题 之 间 的 继承 依赖 性 ， 
分 析 主 题 随 时 间 的 演变 ,每 篇 文献 中 的 词 选择 从 引文 
的 主题 或 施 引 文献 的 主题 中 生成 。J. Shen 等 "构建 
RefTM 模型 ,与 ITM 的 建 模 思 想 类 似 ,在 RefTM 模型 的 
基础 上 衍生 出 J]-Index 来 评估 文献 在 主题 层面 的 学 术 
影响 力 。L，Huang 4°") 提出 Bi -citation -LDA ,被 引文 
献 采 用 Link-LDA 模型 同时 生成 主题 与 词 .主题 与 引文 
的 分 布 , 若 这 篇 文献 被 引用 ,对 施 引 文献 抽取 主题 与 其 
引文 的 分 布 ,该 模型 能 够 整合 最 新 的 文献 ,从 而 识别 从 
被 引文 献 流 向 施 引 文献 的 高 影响 力 的 主题 。 

也 有 一 些 模型 在 引入 引文 对 关系 的 同时 ,加 入 了 作 
者 元 数据 进行 建 模 ,如 J，Kim 等 ”提出 的 LTAI 模型 ， 
在 每 一 对 引文 关系 中 引入 作者 的 分 布 , 且 其 中 计算 引文 
影响 的 参数 服从 狄 利克 雷 分 布 。T. Dai 等 建立 了 作 
者 链接 社区 的 引文 推荐 主题 模型 ( Topic Model with Au- 
thor Link Community for Citation Recommendation ) , 引 A 
作者 和 引文 信息 ,获取 作者 引文 的 分 布 、 合 作 作 者 分 布 、 
施 引 文献 与 被 引文 献 之 间 的 关联 关系 ,其 引文 推荐 性 能 
优 于 Link-PLSA-LDA 和 RTM 模型。 如 表 2 所 示 : 


mS, 王 丽 ,， 刘 细 文 .利用 引文 构建 的 主题 模型 研究 进展 [J]. 图 书 情报 工作 ,2019 ,63(23 ) :131 - 138. 


表 2 基于 被 引 与 施 引 主题 间 关 系 的 主题 模型 


时 间 ( 年 ) 作者 基础 模型 参数 估计 与 推断 算法 
2007 L. Dietz 等 Latent Dirichlet Allocation model „Copycat Model .CIM LDA Gibbs 采样 
2008 R. M. Nallapati 等 Pairwise Link-LDA ,Link-PLSA-LDA LDA PLSA MMSB 变 分 推理 
2009 Q.He 等 LDA Gibbs 采 相 
2010 J. Chang 等 LDA 变 分 推理 
2012 T. Masada 等 TERESA LDA 变 分 推理 
2014 Z. Guo 等 LDA 变 分 推理 
2015 L. S. L. Tan 等 LDA MMSB 变 分 推理 
2016 L. Huang 等 Bi-Citation-LDA LDA Gibbs 采样 
2016 J. Shen 等 LDA Gibbs 采样 
2017 J. Kim 等 LDA 变 分 推理 EM 算法 


3.3 ”基于 引用 内 容 的 引用 主题 模型 

H. Small’ 在 1982 年 提出 引用 内 容 (citation con- 
text) 的 定义 ,指出 现在 参考 文献 标签 周围 的 文本 内 容 。 
国 国 外 研究 人 员 利用 引用 内 容 开展 了 主题 提取 .主题 
聚 业 等 方面 的 探索 性 应 用 研究 。B. Aljaber °° 发 现 
引 表 内 容 的 主题 词 可 以 较 好 地 识别 研究 主题 用 于 文献 
的 聚 类 。L. Bornmann 等 中 发 现 引用 内 容 比 题目 和 搞 
要 中 提取 的 关键 词 在 语义 上 更 接近 于 学 者 文章 中 的 研 
IVE, M. Doslu 等 利用 引用 内 容 构 建 有 向 的 主题 
词 术 引 的 引文 网 络 , 利 用 HITS 算法 对 特定 主题 的 论文 
进 得 排序 ,识别 基于 主题 的 重要 文献 ;S. Liu 等 ”利用 
LI 六 识别 引用 内 容 主题 ,发 现 引用 内 容 主题 比 引文 自 
身 主 题 涉及 范围 更 广 。 杨 春 攀 等 5 利用 Labeled-LDA 
结 伦 的 主题 模型 抽取 引用 内 容 主题 ,发 现 引用 内 容 可 
以 消除 全 文 存在 的 “噪音 ” ,并 能 覆盖 尽 可 能 多 的 主题 
内 容 。X. Liu 等 采用 Labeled -LDA ,构建 了 被 引文 献 
和 施 引文 献 间 基于 引用 内 容 的 网 络 图 ,解决 了 引用 原 
因 以 及 引文 贡献 值 的 问题 。 

现 有 的 研究 表明 引用 内 容 相对 于 引文 分 析 , 包 含 
了 更 丰富 的 主题 相关 的 语义 信息 。 相 比 引文 来 说 , 研 
究 对 象 不 再 以 文献 为 最 小 单位 ,而 是 细 化 到 文献 中 的 
知识 元 ,将 节点 属性 和 节点 间 的 关系 赋予 新 的 理解 ,而 
将 引用 内 容 引 入 到 主题 模型 中 进行 建 模 的 研究 相对 较 
少 。 

S. Kataria 等 '" 在 Link-LDA 和 Link -PLSA -LDA 基 
础 上 引入 了 引用 内 容 , 提 出 cite -LDA , cite -PLSA -LDA 
模型 。 其 模型 假设 引用 内 容 中 , 词 和 被 引文 献 的 选择 
是 相互 独立 的 , 即 对 于 引用 内 容 中 的 词 ,同时 抽取 主题 
与 词 .主题 与 引文 的 分 布 。Cite -PLSA -LDA 模型 中 , 施 
引文 献 采用 了 Cite-LDA 的 生成 过 程 ,而 被 引文 献 则 是 
利用 PLSA 抽取 被 引文 献 的 主题 与 引文 的 分 布 。 在 模 


— 


型 的 性 能 评估 实验 中 ,利用 这 两 种 模型 分 别 对 CiteSeer 
3 312 篇 文献 数据 进行 主题 识别 , Cite -LDA 与 Link - 
LDA ,Link-PLSA -LDA 效果 近似 ,而 Cite-PLSA -LDA 要 
优 于 其 他 三 个 模型 。 


本 文系 统 地 梳理 了 近年 来 国内 外 学 者 们 提出 的 利 
有 引文 构建 的 主题 模型 的 发 展现 状 ,详细 分 析 和 对 比 
了 各 模型 的 思想 及 生成 过 程 ,为 情报 分 析 中 主题 识别 
和 演化 分 析 的 方法 选择 提供 参考 ,也 为 基于 上 述 模 型 
的 进一步 改进 和 完善 提供 思路 。 
从 上 述 利用 引文 构建 的 主题 模型 的 研究 中 可 以 看 
出 , 近 几 年 来 随 着 学 者 们 的 不 断 研究 与 探索 ,对 利用 引 
文 构 建 的 主题 模型 的 研究 工作 主要 集中 在 模型 的 扩 
展 ` 改 进 和 优化 方面 。 研 究 角 度 包括 研究 主题 与 引文 
分 布 , 侧 重 研究 被 引 与 施 引 主 题 间 关系 。 参 与 主题 识 
别 的 词汇 的 来 源 包括 了 施 引 文献 和 被 引文 献 , 随 着 全 
文本 分 析 的 发 展 ,也 出 现 了 引入 引用 内 容 的 主题 模型 。 
现 有 的 模型 均 表 明 , 引 入 引文 信息 后 ,可 改进 对 主题 的 
识别 ,能 同时 准确 地 抽取 主题 的 关键 词 分 布 和 关键 文 
献 分 布 ,能 够 获得 更 完整 的 主题 内 容 , 改 进 对 文档 的 分 
类 ,可 以 关联 施 引 文献 和 被 引文 献 之 间 主 题 间 的 关系 
影响 ,可 以 为 主题 演化 分 析 提 供 重要 的 量化 分 析 作 
Fito 


y 


然而 , 现 有 的 利用 引文 构建 的 主题 模型 的 研究 仍 
然 存 在 一 些 问题 ,从 上 文 的 对 比分 析 中 ,可 看 出 基于 主 
题 与 引文 分 布 的 主题 模型 中 ,由 于 只 对 文档 引用 特征 
进行 建 模 ,未 能 对 施 引 文献 与 被 引文 献 文 本 之 间 的 主 
题 关 系 进行 建 模 ,不 能 展示 被 引文 献 与 施 引 文献 的 主 
题 继 承 性 ,底层 的 生成 过 程 相对 简单 而 不 能 解释 语 料 
库 中 引文 结构 和 各 种 现象 。 基 于 被 引 与 施 引 主题 间 关 
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系 的 主题 模型 能 够 提示 被 引文 献 与 施 引 文献 的 主题 层 
面 的 关联 关系 ,然而 从 主题 识别 采用 的 词汇 来 源 看 , 目 
前 多 集中 在 从 被 引文 献 的 标题 .摘要 等 来 抽取 词汇 ,而 
采用 引用 内 容 来 表征 被 引文 献 主 题 的 研究 并 不 充分 。 
可 见 , 利 用 引文 构建 主题 模型 仍 需 要 进一步 推动 ,未 来 
的 发 展 趋势 可 能 会 向 以 下 方向 延伸 。 
4.1 引入 引用 内 容 的 主题 模型 研究 及 扩展 

目前 对 引用 内 容 的 主题 模型 研究 中 ,引入 到 主题 
模型 中 进行 建 模 的 研究 较 少 ,主要 是 应 用 已 成 熟 的 模 
型 识别 引用 内 容 的 主题 。 随 着 引用 内 容 分 析 和 自然 语 
言 处 理 两 个 研究 领域 交叉 的 深入 ,使 用 引用 内 容 对 引 
文 主题 进行 语义 分 析 和 自动 分 析 将 会 更 加 深入 ,这 将 
会 加 强 引 文 分 析 的 深度 ,特别 是 对 语义 理解 的 程度 。 
此 外 , 随 着 互联 网 技术 的 进一步 发 展 和 开放 获取 运动 
的 凑 起 ,全 文 数据 成 为 了 易 获取 、 易 解析 的 数据 来 源 ， 
和 时 包含 了 更 加 丰富 的 文本 信息 。 如 xml 格式 的 全 文 
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用 引文 构建 的 主题 模型 在 性 能 优化 方面 需要 更 
高 效 的 算法 。 目 前 大 部 分 模型 是 将 词 项 或 引文 空间 变 
换 到 主题 空间 ,已 有 的 模型 多 集中 在 PLSA 和 LDA 的 
扩展 方面 ,对 参数 的 估计 和 推断 算法 上 多 采用 EM 算 
法 、 变 分 推理 .Gibbs 采样 等 方法 。 此 外 ,该 类 模型 中 ， 
特别 是 基于 被 引 与 施 引 主题 间 关系 的 主题 模型 ,会 引 
入 新 的 潜在 变量 ,模型 的 运行 时 间 通 常会 增加 。 如 
Link-LDA 和 Link-PLSA -LDA +t} , Gibbs 单 次 采样 时 间 
的 复杂 度 与 语料库 中 链接 的 数量 呈 线 性 相关 ,在 链接 
过 大 时 该 模型 将 会 受 限 。 如 何 设计 针对 该 类 模型 的 性 
能 优化 方法 ,以 及 如 何在 降低 复杂 度 和 保证 主题 词 效 
果 之 间 寻 求 平衡 需要 进行 深入 的 研究 。 此 外 ,目前 对 
利用 引文 构建 的 主题 模型 的 评价 采用 复杂 度 比较 、 召 
回 率 方法 评估 模型 的 效果 ,个别 模型 采用 了 AUC ,精确 
率 .主题 一 致 性 (topic coherence) Fl] Score 的 方法 ,对 
模型 效果 的 评估 方法 还 可 从 多 个 角度 进行 扩充 。 
4.3 利用 引文 构建 的 主题 模型 的 应 用 研究 

利用 引文 构建 的 主题 模型 目前 主要 应 用 在 主题 识 
别 .主题 演化 ,文本 聚 类 、 链 接 预 测 .引文 推荐 等 方面 。 
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结合 文本 的 主题 信息 与 引用 关系 进行 建 模 ,在 发 现 高 
质量 的 主题 的 同时 ,还 可 预测 引文 的 强度 ,发 现 主题 内 
部 之 间 的 继承 与 演化 关系 。 这 种 主题 间 的 关联 关系 可 
丰富 主题 影响 力 评价 ,或 结合 已 有 的 计量 学 指标 如 h 
指数 和 影响 因子 ,扩展 研究 基于 主题 关联 关系 的 学 术 
影响 力 评价 指标 。 该 类 模型 本 质 上 是 一 种 对 具有 链接 
信息 的 文本 概率 建 模 的 方法 ,可 以 应 用 在 文本 挖掘 的 
多 个 方面 。 已 有 的 研究 中 ,应 用 的 对 象 除 科技 文献 外 ， 
个 别 学 者 也 将 其 应 用 至 网 页 信息 以 及 blog 数据 中 , 表 
明了 该 类 模型 可 扩展 应 用 到 带 有 链接 的 多 种 语 料 中 ， 
但 对 应 用 的 效果 评价 还 需要 进行 更 深入 的 研究 。 
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Abstract; [ Purpose/significance | A wide variety of topic models has been developed with improved algorithm. 


This€paper aims to study the research advances, generation process and algorithm of citation based topic models. Addition- 


ally'y we discuss the application in the text of academic articles and research areas in the future. [ Method/process | 


Based on the data of Web of Science and CNKI database, we collected articles of citation based topic models. In these ar- 


til€8, we selected several representative articles after manual interpretation to analyze the generative process, parameter 


estimation and inference methods in these citation based topic models. [ Result/conclusion | Currently, there are mainly 


three types of citation based topic models. This includes the topic models which focus on the topic -citation distribution , 


while other topic models mainly study the relationship between the citing documents and the cited documents. Besides, ci- 


tation context based topic models are also available. Additionally, more complete topic content can be detected after intro- 


ducing citation information into the topic models. Moreover, most of the models are the variants of LDA and PLSA. In fu- 


ture, incorporating citation context information into topic models, improving the inference methods and applying the mod- 


els are some of the future directions. 
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